메뉴

#비디오 생성

HN
Hacker News 2일 전
IMP 7

칸에서 '초청 상영'한 50만 달러 AI 영화의 진실

미국 AI 스타트업 힉스필드(Higgsfield)가 50만 달러를 들여 제작한 AI 장편 영화가 마치 공식 칸 영화제에서 초청 상영된 것처럼 마케팅하여 논란이 일었다. 실제 이 영화는 칸 영화제와는 별개의 상업 시장인 '영화시장(Marché du Film)'에서 유료로 상영된 것으로 확인되었으며, 이 사건은 과장된 AI 호프(Hype)가 어떻게 만들어지고 확산되는지를 보여주는 사례로 AI 업계의 윤리적 마케팅과 신뢰성에 대한 경각심을 일으키고 있다.

AI 영화 마케팅 논란 칸 영화제
SG
r/singularity 5일 전
IMP 9

새로운 제미나이 옴니, 경쟁작들을 압도하다

구글 딥마인드가 텍스트, 오디오, 비디오 등 모든 형태의 입력을 받아 고품질 비디오를 생성하고 자연어 대화로 편집할 수 있는 멀티모달 모델 '제미나이 옴니(Gemini Omni)'를 공개했습니다. 이 모델은 제미나이의 방대한 실세계 지식과 물리 법칙에 대한 이해를 바탕으로 단순한 사실적인 영상을 넘어 의미 있는 스토리텔링이 가능한 영상을 제작합니다. 실무자들에게 이는 복잡한 프롬프트 엔지니어링 없이도 아이디어를 시각화하고 일관된 영상을 제작할 수 있는 혁신적인 워크플로우를 제공한다는 점에서 매우 중요합니다.

구글 딥마인드 제미나이 옴니 비디오 생성
OA
r/OpenAI 7일 전
IMP 6

다중 캐릭터 AI 모션캡처 실험 영상 'Talk'

사라 실킨(Sara Silkin)이 뛰어난 안무자 '지바로(Jibaro)'와 협업하여 다중 캐릭터 기반의 AI 모션캡처 실험 영상 'Talk'를 제작했습니다. AI 기술을 활용해 복잡한 캐릭터의 움직임을 자연스럽게 구현해 낸 것이 이번 프로젝트의 핵심입니다. 제작자는 댓글창을 통해 해당 영상을 완성할 수 있었던 구체적인 제작 과정과 기술적 디테일을 공유할 예정입니다.

AI 모션캡처 영상 제작 안무
WR
Wired AI 9일 전
IMP 7

구글 제미나이로 복제한 내 AI 아바타, 소름 돋도록 똑같다

구글 제미나이(Gemini) 앱의 신규 '아바타(Avatar)' 기능을 통해 사용자의 외모와 목소리를 닮은 AI 딥페이크 영상을 생성해 보았습니다. 단 5분 만에 얼굴 스캔을 통해 디지털 복제인간을 만들어냈으며, 실제와 소름 돋도록 유사한 퀄리티에 동시에 놀라움과 거부감을 느꼈습니다. 이 기능은 오픈AI 소라(Sora)와 유사하지만 본인의 아바타로만 영상을 제작할 수 있다는 강력한 안전장치를 두고 있다는 점이 특징입니다.

제미나이 구글 AI 아바타
MP
MarkTechPost 10일 전
IMP 9

바이트댄스, 이미지와 영상의 이해·생성·편집 통합 멀티모달 AI 'Lance' 공개

바이트댄스가 이미지와 영상의 이해, 생성, 편집 기능을 하나의 모델에서 모두 처리할 수 있는 통합 모델 'Lance'를 발표했습니다. 이 모델은 이해(Understanding)와 생성(Generation) 작업을 각각 분리된 전문가 네트워크로 처리하는 듀얼 스트림 혼합 전문가(MoE) 아키텍처를 채택하여 작업 간 간섭 없이 높은 성능을 발휘합니다. 단일 모델로 텍스트, 이미지, 영상이라는 세 가지 모달리티를 자연스럽게 아우르며 시각 AI 분야의 중요한 이정표를 제시합니다.

멀티모달 비디오 생성 이미지 생성
HN
Hacker News 10일 전
IMP 8

바이트댄스, 이미지·영상 생성·이해 통합 멀티모달 모델 Lance 공개

바이트댄스가 이미지와 비디오의 이해, 생성, 편집을 단일 프레임워크에서 모두 지원하는 30억(3B) 파라미터 규모의 통합 멀티모달 모델 'Lance'를 공개했습니다. 128대의 A100 GPU 환경에서 트랜스포머 백본을 완전히 처음부터 학습시켰음에도 불구하고, 기존 벤치마크에서 매우 경쟁력 있는 높은 성능을 입증했다는 점이 가장 큰 의의입니다. 이는 하나의 모델로 시각 데이터의 인식과 생성을 동시에 해결하는 최근 멀티모달 AI 기술 트렌드를 잘 보여줍니다.

멀티모달 바이트댄스 이미지 생성
TC
TechCrunch AI 11일 전
IMP 8

구글 '제미나이 오mni': 이미지·음성·텍스트를 영상으로

구글이 '제미나이 오mni(Gemini Omni)' 모델을 발표하며 텍스트, 이미지, 오디오를 결합해 물리 법칙과 문맥을 이해하는 고품질 비디오를 생성하는 기능을 선보였습니다. 첫 모델인 '오mni 플래시'는 최대 10초의 영상을 만들 수 있으며, 개인화된 디지털 아바타와 딥페이크 방지용 워터마크 기능도 포함되어 있어 소비자 친화적인 멀티모달 AI 시장을 선도하려는 구글의 의도를 보여줍니다.

구글 제미나이 멀티모달
WR
Wired AI 11일 전
IMP 8

구글, 본인 딥페이크를 쉽게 만드는 신기능 공개

구글이 연례 개발자 회의인 I/O에서 AI 영상 및 이미지 생성 툴인 'Flow'에 자신의 외형을 그대로 구현한 '아바타(Avatar)' 기능을 추가했습니다. 새롭게 탑재된 'Omni Flash' 모델을 통해 사용자는 별도의 촬영 없이도 자신과 똑같이 생긴 AI 딥페이크를 영상 속에 자연스럽게 등장시킬 수 있습니다. 이는 차세대 콘텐츠 크리에이터를 위한 도구를 넘어, 자연어 기반의 에이전트 및 '바이브 코딩(Vibe Coding)'을 대중화하려는 구글의 포괄적인 AI 전략의 일환입니다.

구글 딥페이크 비디오 생성
LL
r/LocalLLaMA 11일 전
IMP 8

바이트댄스, 30억 파라미터로 만능 통합 모델 'Lance' 오픈소스 공개

바이트댄스가 단 30억(3B) 개의 파라미터만으로 이미지 및 비디오의 이해, 생성, 편집을 모두 지원하는 오픈소스 경량 통합 멀티모달 모델 'Lance'를 공개했습니다. 이 모델은 128개의 A100 GPU 환경에서 처음부터(From scratch) 학습되었음에도 불구하고, 기존 벤치마크에서 강력한 성능을 입증하며 뛰어난 효율성을 보여줍니다. 이는 자원이 제한된 환경에서도 고성능 멀티모달 AI를 구현할 수 있다는 것을 증명하는 의미 있는 연구 성과입니다.

바이트댄스 멀티모달 모델 오픈소스
TD
The Decoder 47일 전
IMP 8

단 한 장의 사진으로 45분 실시간 립싱크 영상 생성하는 AI

연구진이 단 한 장의 이미지만으로 말하기, 듣기, 노래 부르는 캐릭터의 실시간 영상을 생성하는 AI 모델 'LPM 1.0'을 공개했습니다. 이 모델은 ChatGPT 등 음성 AI와 결합해 45분까지 안정적인 스트리밍이 가능하며, 실사, 애니메이션, 3D 게임 캐릭터 등 다양한 스타일을 추가 학습 없이 지원합니다. 완성도 높은 딥페이크 기술의 등장이지만, 현재는 안전성 문제로 공개 계획 없이 연구 목적으로만 남겨진 점이 특징입니다.

비디오 생성 실시간 AI 딥페이크
TD
The Decoder 47일 전
IMP 8

구글, 울트라 구독자에 Veo 3.1 라이트 무료 제공

구글이 AI 프리미엄 울트라(Ultra) 구독자를 대상으로 'Veo 3.1 Lite' 하위 우선순위 모델을 추가 크레딧 비용 없이 제공한다고 발표했습니다. 기존 'Veo 3.1 Fast' 대비 절반 이하의 비용과 동일한 속도를 자랑하는 이 옵션은 올 5월 10일부터 정식 적용되어, 구독자들이 크레딧 소모 없이 자유롭게 아이디어를 테스트할 수 있게 해줍니다. 오픈AI 소라(Sora)의 지연 속 공백 속에서 구글이 서방 AI 비디오 시장을 확고히 장악하고 있다는 점을 보여주는 중요한 전략입니다.

구글 비디오 생성 Veo 3.1
TD
The Decoder 48일 전
IMP 8

연구진, AI '세계 모델' 진짜 조건 규정

국제 공동 연구진이 '세계 모델(World Model)'의 명확한 정의를 제시하고, 단방향성 텍스트-투-비디오(text-to-video) 모델은 이에 포함되지 않는다고 규정했습니다. 실제 환경을 인식하고 상호작용 및 장기 기억이 가능해야 한다는 이 기준에 따라 소라(Sora) 같은 모델들은 제외되었습니다. 연구진은 세계 모델 개발과 평가를 돕기 위해 5가지 핵심 모듈을 통합한 오픈소스 프레임워크 'OpenWorldLib'도 함께 공개했습니다.

세계 모델 비디오 생성 오픈소스
MP
MarkTechPost 57일 전
IMP 8

넷플릭스, 영상 속 객체 지우는 AI 'VOID' 오픈소스 공개

넷플릭스 AI 연구팀이 영상 내 특정 객체를 지워도 주변 배경과 물리적 현상(그림자, 중력 등)을 자연스럽게 복원하는 AI 모델 'VOID'를 오픈소스로 공개했습니다. 기존 영상 편집의 가장 큰 난제였던 객체 제거 시 발생하는 이질감을 해결하여, 할리우드 VFX(시각효과) 팀이 수주간 수작업으로 진행하던 작업을 혁신할 수 있습니다.

넷플릭스 오픈소스 비디오 생성
TC
TechCrunch AI 58일 전
IMP 7

구글 비디오 앱, 프롬프트로 아바타 연출 지원

구글이 비디오 편집 앱 '비즈(Vids)'에 텍스트 프롬프트를 통해 아바타의 행동과 외형을 세밀하게 지정하는 기능을 추가했습니다. 또한 Veo 3.1 영상 생성 모델을 도입해 최대 8초짜리 영상을 만들 수 있게 되었으며, 완성된 영상을 유튜브로 직접 내보내거나 크롬 확장 프로그램으로 화면을 녹화하는 기능도 새롭게 제공됩니다.

구글 비디오 생성 AI 아바타
GB
Google AI Blog 58일 전
IMP 8

구글 비즈(Google Vids), 고품질 영상 무료 생성 기능 추가

구글 비즈(Google Vids)에 Veo 3.1 기반의 고품질 영상 생성 및 크롬 확장 프로그램을 통한 화면 녹화 기능이 모든 구글 계정 사용자에게 무료로 제공됩니다. AI Pro 및 Ultra 구독자는 리리아 3(Lyria 3) 모델을 통한 맞춤형 음악 생성과, 특정 장면 및 객체와 상호작용하는 고도화된 맞춤형 AI 아바타 기능을 추가로 활용할 수 있습니다. 이번 업데이트로 인해 누구나 쉽고 직관적인 프롬프트 입력만으로 전문적인 수준의 동영상 콘텐츠를 제작하고 유튜브로 바로 퍼블리싱할 수 있게 되었습니다.

구글 비즈 비디오 생성 Veo 3.1